业务背景
在现代化企业管理中,利用数据分析进行决策支持已成为重要手段,其中包括:过程控制、产能预测、市场决策等等。
在各类业务场景中如何用数字直观地描述指标与指标之间的相关性是一个重要命题,该类业务大多基于回归分析法,回归分析法通过对过去的数据进行采样来构建回归模型,从而为决策和行动提供依据和建议。当回归模型拟合不正确,会误导企业决策的方向,浪费大量人力、物力、财力,给企业造成巨大的损失。因此,对回归模型进行诊断是不可或缺的步骤。即判断回归模型是否正确、理想?换句话说,模型是否很好的提取了样本的规律信息。国工智能MAI平台提供了基于残差检验进行回归模型评估的科学算法。
残差检验的内容
经典且理想的回归模型的前提条件是:1.随机误差项各项之间无序列相关;2.随机误差项服从正态分布;3.随机误差项方差都相同或是固定的常数。(在实际应用中,随机误差项用残差来代替)
满足上述三个假设条件说明回归模型是理想的。残差是样本值(蓝点)与回归直线(红线)上的值(又称回归拟合值)之间的差,红线可由数据大脑拟合回归算法得出,具体见下图。残差检验即检查经过回归拟合后得到的残差是否满足上述三个条件。如果违背了上述其中之一的假设条件,就不是经典的线性回归模型,这样的模型用普通最小二乘法来估计往往失效,最后拟合出来的模型往往是有误的,预测的效果也大打折扣。
图2 序列正相关
所有线性回归模型。
应用场景
化工、酿造等装置性行业的过程控制,往往是多变量共同作用。为了做好过程控制,实现“以因素管理结果",我们运用回归分析的统计技术寻找规律,并用于生产过程控制。例如,啤酒酿造过程中成品啤酒的泡特性(秒),是直接关系到啤酒口感的技术要求。技术和经验表明中间产物的总氮含量X对于需要满足的泡沫时间Y (秒)有影响。数据如下:
表1
图6
运行结果:
图 7
根据图7可知,无论滞后阶数为几,其p值都大于0.1的显著性水平,接受原假设,残差序列不存在序列相关。
接下来,进行残差检验的第二个方面:残差序列正态性检验。(原假设:序列服从正态分布)在诊断方法下拉列表选择:Histigram-Normality-Test;如图3:
图 8
运行结果:
图 9
根据图9可知,Jarque-Bera(JB)统计量的值为1.4136,它服从自由度为2的卡方分布,在0.1的显著性水平下,其临界值=4.605,故JB统计量<临界值,接受原假设,该残差序列服从正态分布。最后,进行残差检验的第三个方面:检验方差是否相同。(原假设:序列方差相等)在诊断方法下拉列表选择:Heteroskedasticity-Tests(怀特检验);如图10:
图10
运行结果:
图11
根据图11可知,怀特检验统计量的值为1.052,它也服从自由度为2的卡方分布,在0.1的显著性水平下,其临界值=4.605,怀特检验统计量值<临界值,接受原假设,该残差序列存在方差相等的情况。
综上,在啤酒的泡特性与总氮含量的一元线性回归模型中,该残差序列不存在序列相关,服从正态分布,且方差相同,上述的三个条件都满足,说明回归模型拟合不错且准确,可使用该模型进行预测。
在下一批生产中,若X(总氮含量)=130,则Y(泡特性)的预测值=-5406.801+46.51*130=639.3(秒),以此类推,能够预测到未来若干次生产中的成品啤酒的泡特性,可通过降低总氮含量等措施控制啤酒的泡特性,从而实现生产控制,实现效益最大化的目标。(具体预测及回归模型含义国工数据大脑多元线性回归在化学研发成本的预测一文)